雑談 2025年10-12月

from 💬雑談

2025/12/31

振り返り

半年後にAIはいったいどうなっているのか 2025年下半期

1年お疲れさまでした！良いお年を！！nomadoor.iconginyakt.icon

2025/12/27

https://x.com/itoyo_monk/status/2004705885000778123?s=20🍌の裏側ではControlNET的なことをしている模様morisoba65536.icon

まぁ、エージェントチックなことはしてるよね…nomadoor.icon

人体以外の制御画像も下書きしてるんだろうか

私信だがゲームに忙しくて最近色々追えていないmorisoba65536.icon

2025/12/13

https://comfyui.nomadoor.net/Comfy に使う ComfyUI

出来たぜ！nomadoor.icon

すごすぎ！！！！はるひ.iconginyakt.iconwogikaze.icon

うわーい＼(^o^)／nomadoor.icon

2025/12/9

バカスカUI変わるせいでどの時点で説明書いたらいいかわかんないんだぜ…nomadoor.icon

https://blog.comfy.org/p/ubisoft-open-sources-the-chord-modelUBIのPBR material estimation modelであるCHORD (Chain of Rendering Decomposition)がComfyUIで使えるように公開された ginyakt.icon

2025/12/7

https://www.youtube.com/@CTRL_FX ComfyUI x NukeのWorkflow Tutsを投稿している、実用的ginyakt.icon

2025/12/02

https://x.com/bdsqlsz/status/1995395277638058343?s=20非蒸留モデルは待ち遠しいとして、蒸留モデルの逆蒸留アダプターはかなり上手く機能しているようでFlux.1の時のような問題はあまり見られていないようだ。morisoba65536.icon

2025/11/27

Z-Imageの勝ちです。nomadoor.icon

軽さ性能柔軟性ライセンス、完璧

2025/11/26

Flux.2なにもかもでかすぎる…nomadoor.icon

https://x.com/bdsqlsz/status/1993385551723216909?s=20もうちょい小さいモデルも別のところからリリース予定のようなのでそちらを見てから考えるでもいいのかも？morisoba65536.icon

なんかredditで5Bモデルの噂でてましたね…nomadoor.icon

ComfyUIのコミットにあったZ-Imageってなんじゃらほいと思ってたけど、これがそうなのか

2025/11/21

🦊雑に学ぶComfyUIだとちょっとやっぱり体系的にまとめらんないんで、ちゃんとしたサイトを作ることにしましたnomadoor.icon

なんか仕事に繋げないとなぁとも思うしね…nomadoor.icon

+1, サイトができたらここで共有してほしいです！ ginyakt.iconはるひ.icon

もちろんです！というかスペシャルサンクスとして、でっかくここを紹介しておこう…nomadoor.icon

Cosenseで下手に綺麗に整えようとしたせいで、あんまり自由にかけなくなってたところもあったんですが、もう自由にごちゃごちゃ書いちゃってください！nomadoor.icon

2025/11/19

https://github.com/ChenDarYen/ComfyUI-NAG/issues/55またバージョンアップするとComfyUI-NAGが壊れるようだ…morisoba65536.icon

2025/11/21追記:https://github.com/ChenDarYen/ComfyUI-NAG/issues/53#issue-3629676396暫定の回避策が共有された

KSampler置き換える系は仕方ないね…nomadoor.icon

2025/11/18

https://www.threads.com/@luokai/post/DRLjuD8COfO?xmt=AQF09idmu9iOVXk3o8YrR7IrYY07-UBv1Z777euvs9KL5nZpryFHgyqUrjnFNwdwfm4PThXq&slof=1ComfyUI-WanVideoWrapperノードになんかしらん機能あるな…morisoba65536.icon

お、ちょうど書こうと思っていたTime-to-Moveだnomadoor.icon

https://x.com/kohya_tech/status/1990409494522642783?s=20

VLMに画像を渡さないほうがむしろプロンプトが効く。

なんやと…morisoba65536.icon

2025/11/16

https://www.reddit.com/r/StableDiffusion/comments/1owiicy/warning_make_sure_to_not_store_your_confyui/デスクトップ版だとvenv消すとああだこうだなって、outputフォルダやらもろもろ消えるらしいnomadoor.icon

まぁ、デスクトップ版であんまり深い階層触っちゃダメだね…

単純な画像にかけるものの知識量だとChatGPTのImage生成(ここでの登録名忘れた…)のほうがNano Bananaよりも優れていそう。チンアナゴとかのあまり学習されてなさそうな🍌では出せなかったがChatGPT-Imageは出してきたmorisoba65536.icon

https://www.reddit.com/r/StableDiffusion/comments/1ouj0zo/my_opensource_comfyuiintegrated_video_editor_has/オープンソースのComfyUI統合ビデオエディター

2025/11/14

https://x.com/ComfyUI/status/1989107025910067469?s=20ここのwikiで見覚えがあるんだけど名前が思い出せない機能morisoba65536.icon

Any Trajectory Instruction...？ginyakt.icon

これだ👀morisoba65536.icon

https://www.reddit.com/r/StableDiffusion/comments/1owl0tg/any_safe_downloads_or_alternatives_for_stable/stablediffusion 2.1のリポジトリが消えたようだmorisoba65536.icon

https://huggingface.co/Comfy-Org/stable_diffusion_2.1_unclip_repackagedhttps://huggingface.co/Comfy-Org/stable-diffusion-v1-5-archiveStable Diffusion 1.5共々Comfy Orgのバックアップmorisoba65536.icon

2.1の方はちょっと違う…？morisoba65536.iconhttps://huggingface.co/Comfy-Org/stable_diffusion_2.1_repackaged/tree/mainこっちか

2025/11/12

https://qiita.com/nolanlover0527/items/83480966029c70ad14d5ChatGPTで話題の「良い人フィルター」を解除するプロンプト

https://x.com/CafeSingularity/status/1954577455613686216?s=20元々がこれなGrokにぶち込むとどうなるのかだいぶ怖いもの見たさがある(仕事終わったら試すかも)morisoba65536.icon

AndroidアプリでTODOリスト作るというありそうなお題で(いくつか間違えやエアプ感出して)ブログ記事を作らせ(made in ai)てGrokに投げ込んでみたmorisoba65536.icon

https://grok.com/share/c2hhcmQtMw%3D%3D_fb59c9c0-e5dc-40b5-9681-5ca2435eb673Grok4(FAST)解除プロンプトなし

https://grok.com/share/c2hhcmQtMw%3D%3D_fb59c9c0-e5dc-40b5-9681-5ca2435eb673Grok4(FAST)解除プロンプトあり

意外にも修正箇所は(少なくとも点数は)変わらず、軽く比較した感じでも内容も概ね同じ感じ

強いて言うなら口が普通に悪く(欲言えば手厳しく)なってるくらいか…(Fワード連呼するくらいの内容を予想してたので、予想ほどやばい発言はしてないが)morisoba65536.icon

ある意味元々遠慮がないので口調(と小言の追加)くらいしか変わらなかったのかも知れないmorisoba65536.icon

2025/11/11

https://www.reddit.com/r/StableDiffusion/comments/1ot3da3/good_ai_video_generators_that_have_mid_frame/I2VModelでも中間フレーム使えるのかmorisoba65536.icon

音声モデルだけは中途半端な日本語対応だと使う気にならないから自国でやるしかないのかもしれないnomadoor.icon

某ゆっくり(仮)くらい明確に「人間の声じゃない」で権利フリーな物が出てきたらそれはそれでありがたいんですがね…(声紋だの何だののややこしいものを一切気にせずに済むので…)

もしくは完全に著作権切れになってるくらいもういない人物の音声とか(蓄音機の発明直後の人物の声ならそろそろそうなってそうだが…)morisoba65536.icon

いっそのことSplatoonみたいに何言ってるかわからない音声を使おう()nomadoor.icon

あとはもう身内の声をボイスクローンするしかない

音声が主じゃないコンテンツ(テキストベースの読み上げ等)でガチで何処にも気にせず使えるTTS欲しいな～というのが割とある(個人的な需要)morisoba65536.icon

ComfyUI-PainterI2V記事を書こうとしたらもうあったmorisoba65536.icon

https://www.reddit.com/r/singularity/comments/1otuefg/nano_banana_2_crazy_image_outputs/

nano banana 2さん順当に強いですね…nomadoor.icon

もうMLLMとの統合モデルじゃないと戦えないだろうけど、作れるのも動かせるのもビッグテックしかいないんじゃないかな

Cosenseのプロジェクト作るときにUpload images toでscrapboxとGyazo選べるけどこれの違いなんだろ？(どっち選んでもある程度画像でかいと勝手にオフロードされる？)morisoba65536.icon

GyazoはCosense作ってる会社の関連サービスなんですが、Gyazoはただで無限に画像と動画(無料版だと数秒の動画だけ？)あげられるので、Gyazoにしたほうがいいですねnomadoor.icon

Scrapboxの方は、jsonでも何でもアップロードできるけど容量が決まってるので勿体ないというか、損です

なるほどmorisoba65536.icon

2025/11/10

https://x.com/mervenoyann/status/1986785795424788812?s=20SAM 2の強化版かな？(とりあえず流し読みなのでよく判ってない)morisoba65536.icon

EdgeTAM

(あれ、書こうと思ったらもう自分で書いてあった…)nomadoor.icon

https://www.youtube.com/shorts/oXOVOtdaZko

漫画のワンダンスが好きだったのでメモnomadoor.icon

元がMMDみたいと酷評されていたけど、まぁ…確かに…

AIの方はグローで隠しまくってるので、AIが良いというわけではないけれど、最近の3DCGでここまで後処理かけてないのも珍しいね

ComfyUIのフロントエンド大改修でなんか起動できないループ入ったな(；´Д｀)nomadoor.icon

--front-end-version Comfy-Org/ComfyUI_frontend@latest消せば問題ないけど、原因がわからないのはツライ…

このところRouWei-Gemma触ってるけどSDXLにプロンプト追従性能が追加されるの普通に便利だな…morisoba65536.icon

2025/11/08

https://x.com/wildmindai/status/1985643001595773104https://arxiv.org/abs/2503.01996ページ作るほどの内容か精査してなくわからんのでとりあえず雑談に投げる。LLMで英語よりポーランド語のほうがプロンプトクエリの精度が高いらしい…morisoba65536.icon

軽くAIに論文読み込ませた感じ、どうやら英語で「答えがなければnone」という指示が入ると性能が大きく落ちるようで、noneが誤訳・誤解釈につながることが英語のスコア低下につながった模様morisoba65536.icon

Gemini 1.5 Flashの性能がいいのは、良くも悪くも考えすぎてないからなのかなnomadoor.icon

https://www.reddit.com/r/comfyui/comments/1orewmg/best_prompt_based_segmentation_now_in_comfyui/高性能なセグメンテーションらしい？

Sa2VA

https://x.com/wildmindai/status/1986137450721550752?s=20なんかどっかで見覚えある処理だなと思ったら作ってたのここの人だったmorisoba65536.icon

自分でtwitterに投稿したものは全くウケず…redditに投稿したのが回り回ってtwitterに帰って来る不思議nomadoor.icon

これが栽培漁業か…

Twitterは元アカウントのフォロワー数でほぼ決まるような所あるからなぁ…(元アカウントの発見率に9割依存してる感がある)morisoba65536.icon

割と真面目にAIでもものづくり、「自分の知らない領域をどう調べて補間しながら作れるか」と言うのが問われる気はする(本当に事前知識と経験がないと無理な領域もあるにはあるが)morisoba65536.icon

例えばダンスの動きや型、服装のスタイルや音楽の拍子とBPMの関係とかそういった物を調べる手段がChatAIによってできたので、ただ生成モデルにプロンプトを打ち込んでるだけより生成AI(と、その裏付けの検索)で裏を取りながら必要な精度を高める指示をしていくので、自分の作ろうとしてるものの構成要素をどれだけ自認できるかに関連していきそうな気もする。morisoba65536.icon

https://civitai.com/models/2088559/cinematic-hard-cut?modelVersionId=2376295Wan2.2にカットシーンを導入するLora

2025/11/07

https://note.com/gentle_murre488/n/nc0ae247a4912?sub_rt=share_b結構前の記事だがRouWei-Gemma+ネイティブのCLIPで相性問題の出やすさを抑えながらllmベースの理解力の恩恵に預かろうというWorkflowmorisoba65536.icon

RouWei-Gemma+ネイティブのCLIPのworkflowを該当ページに追加した。morisoba65536.icon

失敗した時の画像も数枚は残してないと問題のあった組み合わせの特定がモデル不明で出来なくなるので困るな(困った)morisoba65536.icon

2025/11/05

海外の掲示板でのやり取りが増えると「無自覚な文化的な違い」というところで難しいねとなりがちmorisoba65536.icon

書き込む情報粒度が特に難しい…(短く圧縮するのが特に)morisoba65536.icon

根本的にキャッチボール的に会話するのが好きじゃないから情報源としてはWiki形式で全部書いてあって全部勝手に読めるほうが好きではあるんよね…morisoba65536.icon

アメリカンなテンションで陽気にいけるので結構好きですねぇ…nomadoor.icon

最近日本語もなんか英語の翻訳みたいな文章書いてる気がする

https://x.com/testingcatalog/status/1985873369531891853🍌の新型がくる？

https://x.com/AIWarper/status/1985854898429378833あと11/18にGeminiシリーズもアップデートされそうらしい

https://x.com/LTXStudio/status/1985362073115885908フルにOPEN化されたらかなり嬉しい＆オープン動画モデルのスタンダードが変わりそうな多機能＆高性能ぶりだが果たしてどこまで出るのか…？(もう数週間でわかる話ではあるが)morisoba65536.icon

各社ちゃんと売れる技術になってきて、もうオープンにしないんじゃないかという不安があるnomadoor.icon

SD1.5の時代と違ってフルファインチューニングを誤家庭でできる時代じゃないので、正直OSS生成AI界隈はぼちぼち死ぬかもしれないと思ったり思わなかったり

(Comfy.orgも最近やることなくてAPIノードの追加くらいしかしてないし…)nomadoor.icon

ComfyUI自体は残る、なんなら発展すると思いますが、localではなくなりつつありますよね...interfaceとして割と完成度高くなってますしginyakt.icon

ローカルとAPIの橋渡し的な役割ですよねnomadoor.icon

モデル作るために大金使う必要も無いし、ゴールドラッシュのときのジーンズ的な、旨いポジションではある…

https://huggingface.co/docs/accelerate/main/en/concept_guides/fsdp1_vs_fsdp2https://zenn.dev/liushuzhi/articles/4f9cb9822209f1RaylightやRamTorchの裏側で動いているFSDPってなんぞや？という記事

2025/11/02

https://huggingface.co/Comfy-Org/Wan_2.2_ComfyUI_Repackaged/tree/main/split_files/lorasKijai氏、ComfyUIのリポジトリにコミットしてる(プルリクかな？)morisoba65536.icon

https://github.com/komikndr/raylightLinux/推論のみだがマルチGPU推論に対応したComfyUIノード

Raylight

https://zdoc.app/en/Shubhamsaboo/awesome-llm-appsローカルも含めたllmアプリケーション構築のチュートリアル集らしい、日本語ページあり

今更🦊ComfyUIとは？を書いていくスタイルnomadoor.icon

2025/11/1

ComfyUI、ついにVUE版が来たけど、なんか、見にくい気がする…nomadoor.icon

https://gyazo.com/f9c046614d7d1d1ff3e95c452db475bd

もう少しブラッシュアップされるのを待ったほうがいいかな

書くべき場所がわからんのでひとまずここに、Wan2.1のI2V向けLoraを🦊Wan2.1_VACEに適用してみたところちゃんと動く？みたい(キーの不一致で怒られているのでI2VでトレーニングされたLoraで確認)morisoba65536.icon

意外とどこにもVACEにI2V向けLoraを試した例が書かれていないので自分で調べてみた

https://github.com/ChenDarYen/ComfyUI-NAG/issues/49現在のComfyUI-NAGがうまく動作していない模様。

https://github.com/pamparamm/sd-perturbed-attentionSD1.5/SDXLはこちらのノードが代替に、WanはComfyUI-KJNodesのWanVideoNAGノードで代替になるけど他のモデルでは現状回避策がない…morisoba65536.icon

https://github.com/xmarre/ComfyUI-NAG/tree/mainと思ったけどプルリクエスト見る限りこちらのフォークを使えばいけるっぽい？（現在未確認明日でも試す）morisoba65536.icon

2025/11/02 ひとまず↑のフォーク版が動いたのでComfyUI-NAGページに反映

2025/10/30

Sora2、単なる方向性の迷走かと思ってたが、動画モデルの困惑度とプロンプトを記録しておけば「モデルが苦手な理解を特定できる」のでLLM(GPT)の強化にも繋がりそうだな…(計算資源的にとても富豪的なデータ集めだけども)morisoba65536.icon

ただこれが前提ならここまで気前よく30回無料とか出してる理由も割とわかる(かなり実践的なデータが集まるので)morisoba65536.icon

音楽生成AIとUniversal Music Groupの絡みが話題になってるのでまとめたいなnomadoor.icon

https://stability.ai/news/universal-music-group-and-stability-ai-announce-strategic-alliance?utm_source=x&utm_medium=social&utm_campaign=Stability+AI+x+UMG+

https://www.reddit.com/r/StableDiffusion/comments/1ojvjh3/udio_just_got_nuked_by_umg/

DeepSeek-OCRやKimi-Linear、Tongyi-DeepResearch-30B-A3B等など、実現方法は様々ながら現在の技術トレンド的なところとして「実用的なコンテキスト長をどれだけ確保できるか？」と言うものを模索している感はある。(RAGやコーディング等など多くの場面で既存のllmのコンテキスト長で不足する場面が増えてきたようだ)morisoba65536.icon

https://www.affinity.studio/ja_jpあまりAIと直接関係はない(少しだけある)けどAffinityが無料化されたmorisoba65536.icon

愛用しておりますnomadoor.icon

嬉しいけど、ただより高いものは無いからね…

2025/10/29

単なる雑記だけどRouWei-Gemmaはなかなかポテンシャルありそうな感じはあるmorisoba65536.icon

エコシステムがすでに揃っている(良い意味で枯れている)SDXLでT5以上の高性能Encoderが使えるので複数人をそれなりに器用に書き分けてくれる(少なくともFluxレベルの書き分け能力で)と言うのは中々良いmorisoba65536.icon

思えばそもそも論だがSDXL以降は指がグニャる頻度はかなり落ちたなぁとは感じる(珍しい訳では無いが上手くいくことも普通にある程度にはなってる)

2025/10/28

ACE-Step使ってると「120〜150の間のランダムな値」みたいなのが割と欲しくなる(音楽ガチャ)morisoba65536.icon

何かの計算系ノードでできそうな気もするが…

もしくは一定のプリセットランダム(120,130,140,150みたいなの)があれば画像生成でも縦横サイズガチャできて楽しそうなんだけどもmorisoba65536.icon

計算系ノードちゃんと掘ればありそうな気はするmorisoba65536.icon

https://github.com/Derfuu/Derfuu_ComfyUI_ModdedNodesDerfuu_ComfyUI_ModdedNodesにはありますねnomadoor.icon

ただもうアーカイブになってるので、Power PuterとかがRandomに対応してくれるとｳﾚｼｨ…

2025/10/25

SOZOしよう、自分だけのBRZストーリー。

せっかくだしみんなやらない…？nomadoor.icon

2025/10/24

Generation/Editing系でよく採用されているbenchについて、そのうちまとめを書いておきたいし、自環境で試せるものなのだろうかginyakt.icon

+1nomadoor.icon

https://rafadre.com/the-connection-houdini-comfyui-pluginTHUG(2025/05)で発表されていたhoudini x comfyuiが気になっているginyakt.icon

Invited to Comfy Cloud Private Betaが来たので、そのうち試したいginyakt.icon

Private Beta Discord Serverを見る限り、現在は不具合が多いようです

Private Beta情報を外部にどこまで公開してよいのか不明

雑に学ぶの方にまとめるのはもっと安定してからにしようとは思ってますねnomadoor.icon

ダッシュボードは欲しい…

2025/10/23

https://github.com/alexcong/ComfyUI_QwenVLとりあえずメモ、ComfyUI-QwenVLとの違いとかなんか調べてページ作るかもくらいの雑な保留morisoba65536.icon

https://github.com/jacklishufan/Reflect-DiTちょっと気になる技術morisoba65536.icon

色々画像・動画生成モデル触っててどうにも「特定の動作などキーワード」で画風とか他の場所にまで影響与えるパターンも散見されてプロンプト難しいね、となる。morisoba65536.icon

例えばSora2でアニメ調とか指定してても「ロック」とか「インタビュー」と書くと突然実写化するなど、モデルによってクセも違うのでまあまあ厄介。ローカルモデルなら乱数固定してキーワード絞り込んでネガティブ使ったりもできるのだが…(Webの奴だと乱数固定できず回数消費もネックに)morisoba65536.icon

同じく感想レベルの話だが、「(なんか色々事情があり)釘は刺しておきたいが直接表現は避けたいニュアンス」みたいな翻訳をバックである問題も含めた上で翻訳依頼した時、GPT-5/Gemini/Grok/Qwen3辺りはどストレートに事情を書いてマサカリぶん投げて、歯に布着せないのに対してClaude 4/DeepSeek-V3.2-Exp辺りはそれなりに意図を汲み取って迂遠さを残した言い回しにしてくれるのでこう言う所は得意なようだ(この辺はモデルのチューニングの方向性的なところだろうけど)morisoba65536.icon

2025/10/22

ComfyUI v0.3.66にて、Subgraph Widget Editing機能が追加された。かなり良アプデなのでは？ginyakt.icon

サブグラフに入らずに新しいパラメータパネルから直接サブグラフのパラメータが編集できるようになっている

かるく触ってみた感じ、パラメータの表示/非表示が簡単に設定できるし、recommended widgetsで自動設定されるのも良き。ただし、どのnodeから引っ張ってきたパラメータか、ぱっと見分からないのが難点ですかね？パラメータ名のエイリアス設定ができるとうれしい。入れ子にするとDisconnectedは残念。ginyakt.icon

https://www.reddit.com/r/StableDiffusion/comments/1ocmffx/uniworldv2_reinforce_image_editing_with_diffusion/Qwen-Image-Edit-2509の強化学習モデルloraのようだmorisoba65536.icon

Edit-R1nomadoor.icon

2025/10/21

https://note.com/toshia_fuji/n/nb813af8c70ba先日のAIあれこれまとめ

結構いろんなモデルが出ている

ローカルですぐ使えそうなもの(使えるようになりそうなもの)に絞ったらQwen-VL、ComfyUI_LucidFlux、Qwen-Image-Edit-InSubject、DreamOmni2-GGUF、Wan Ditto LoRA、DeepSeek-OCR辺りだろうか。morisoba65536.icon

読まなきゃなぁと思っているものがタブにたくさん眠っている…(；･`ω･´)nomadoor.icon

https://invoke.ai/InvokeAI、Adobeに買収

なんだってーnomadoor.icon

Adobeが買収するのにOSSのままなんて…

https://www.reddit.com/r/StableDiffusion/comments/1obws1z/invokeai_was_just_acquired_by_adobe/?utm_source=share&utm_medium=mweb3x&utm_name=mweb3xcss&utm_term=1&utm_content=share_buttonなんかRdditの書き込みを見る限りどちらかと言うとメインメンテナーの引き抜きでこちらは放置される感じにニュアンスは近そうmorisoba65536.icon

https://rocm.docs.amd.com/en/docs-7.9.0/about/release-notes.html#supported-hardware-and-operating-systemsRocmが正式にRyzen AI Maxをサポート

https://huggingface.co/Kijai/WanVideo_comfy_fp8_scaled/tree/main/MoChaまた知らないWan2.1派生モデル

https://huggingface.co/papers/2503.23307?utm_source=chatgpt.comどうやら

音声とテキストからリアルな会話キャラクターアニメーションを生成し、複数のキャラクターの会話と優れたリアリズムを実現します。

とのことらしい

とりあえず書く事が多い一日だったmorisoba65536.icon

https://github.com/Kosinkadink/ComfyUI-VideoHelperSuite/issues/529Video Output Color Shift/Tinting

VHS viedeo combineにバグがあるらしい(だいぶ前から)nomadoor.icon

とはいえ、特に気づくほどの劣化は見たこと無いかなぁ

こればっかりは公式のSave Videoノードの機能が少なすぎるので使い続けたいけど…

2025/10/20

https://www.reddit.com/r/StableDiffusion/comments/1oayez0/introducing_insubject_05_a_qwenedit_lora_trained/既に次のバージョンのトレーニング中のようですが、Qwen-Image-Edit(旧版)でのキャラクター一貫性Loramorisoba65536.icon

既にQwen-Image-Edit-2509向けにトレーニング中とのこと

https://www.techno-edge.net/article/2025/10/20/4669.htmlllmに確率に基づいていくつかのパターンを出させることで回答にバリエーションを持たせる方法

https://x.com/MIZNOM/status/1974361540523622541BlenderからcomfyUIへ頂点データを持っていく

https://nof1.ai/DeepSeekのモデルが投資成績良いのは流石に母体が投資会社だけあるな…となる(おそらく学習データセットにもそういうデータが多いのだろう)morisoba65536.icon

X上のAIトレンドwiki読んでる、追いきれないからこうやってまとめてくれるのはありがたすぎ ginyakt.icon

blogもあった

本職のみなさんも全部追えないって言ってましたしね…　画像だけならまだしもLLMまで全部網羅できてる人なんてこの世におるんじゃろうか…nomadoor.icon

本職の人も企業系の話(論文とか)は追えてても無から生えてくる野生の開発者による草の根技術はもう把握するほうが無理だろうからなぁ…morisoba65536.icon

2025/10/19

Sora 2なんか、どんどんフリッカーひどくなっているような気がするnomadoor.icon

蒸留モデルに変えた？

フリッカーではないが、割と1フレーム目が荒れる事が多かったり、カット割り多用したり指示を割と無視する(これは多分わかってないんじゃなくて曖昧な指示を通せるようにした副作用だと思うが…)等割とクセは強いmorisoba65536.icon

https://x.com/Yeq6X/status/1979525926787723664Wan-Animateを使ってポーズ転送できる模様

なんか最新のComfyUI＋Pytorch2.9のうちの環境でComfyUI-NAGが動かなくなっている…morisoba65536.icon

Wan2.1/Wan2.2に関してはComfyUI-KJNodesのNAG使えばいいとしてほかはNAGがうまく動いてくれない(おま環かは不明)

原因の切り分けは上手くできてないが、長文プロンプトをいれると失敗してる(短文で成功するかは未確認)のでもしかして文字数制限が厳しい…？

2025/10/21確認したところ短い生成実績のあるプロンプトなら行けたのでどうやらNAGがあまり長いプロンプトに対応していないようだ。morisoba65536.icon

2025/10/18

https://x.com/ostrisai/status/1979250513209364641量子化とDRAMオフロードを組み合わせてQwen-Image-Edit-2509をVRAM10GB未満でトレーニング出来るらしい

2025/10/17

昨日気さくにComfyUIをまるっとアップデートしたらうっかりPytorch2.9入っちゃってFlashAttentionが使えなくなって割と焦った(ずっとComfyUI-BAGELがごちゃごちゃ更新されてたのはこれのせい)morisoba65536.icon

ComfyUI-Temporal-Mask-Tools

初カスタムノード…(99%AI産)nomadoor.icon

👍️morisoba65536.iconginyakt.icon

2025/10/16

https://www.reddit.com/r/AudioAI/comments/1mu9cot/music_diffusion_model_trained_from_scratch_on_1/?utm_source=share&utm_medium=mweb3x&utm_name=mweb3xcss&utm_term=1&utm_content=share_buttonだいぶ前の記事だけど個人で音楽生成モデルを学習した人がいた模様

2025/10/15

https://github.com/ttulttul/ComfyUI-FlowMatching-Inverter全然調べてないけどちょっと読むとフローを逆方向に動かしてNoiseを追加するノードらしいmorisoba65536.icon

https://www.reddit.com/r/comfyui/comments/1o6i3x8/native_wan_22_animate_now_loads_loras_and_extends/Wan-AnimateにてLoraをロードするモジュール

https://www.reddit.com/r/StableDiffusion/comments/1o6ftq9/30sec_wan_videos_by_using_wananimate_to_extend/Wan-Animateで動画拡張するWorkflow？

WanAnimateのポーズ入力とか全部無視して、VACE Extensionとしてtext2videoするってことかなnomadoor.icon

2025/10/14

ACE-Step、ピアノの音が万能すぎるからか、かなり意図してピアノを弱める指示をしないとピアノ独奏会になりがちな程度に.「とりあえず主旋律にピアノ」を回してくる(インスト曲を作ろうとした場合)morisoba65536.icon

ピアノを入れてサブにしたい場合(piano:0.25)より弱めるくらいでちょうどよくなる…

ただピアノの強さはともかく結構変な楽器の使い方も指示するとしてくれるので、楽器の使い方のバリエーションはSora2より普通に優秀かもしれない(音楽専用モデルなんだからそりゃそうといえばそうだろうけど)

2025/10/12

https://x.com/toyxyz3/status/1976630994741727369多分Wan2.1の蒸留Lora

Comfy Cloud来たけど、ハードウェア何使ってるかとか分かんないなnomadoor.icon

チラ裏だけどSora 2で音楽生成にハマってACE-Stepを使い始めたmorisoba65536.icon

そしてサウンド保存系ノードがことごとく日付とかのパースに未対応…またお前らか…morisoba65536.icon

ついでにワークフローも未保存…ちと面倒だな…

こちらの現実的な解決策としては🦊空の画像ノード→🦊Save Animated WEBPノードで、保存するフレームレートか画像の色を外出しでインクリメントあたり(全く同じ画像では保存してくれないので)に設定して保存ごとにwebpも保存が一番容量に優しい感じかもしれない(だいぶ苦しいが)morisoba65536.icon

2025/10/10

https://x.com/SlipperyGem/status/1976276685592146336Qwen-Image-Edit-2509のピクセルシフト問題を解決したWorkflowにデフォルトノードが更新されたらしいmorisoba65536.icon

TextEncodeQwenImageEditノードにvae入力するのやめて、vaeの処理をReferenceLatentノードに変えてるだけですねnomadoor.icon

前からこの処理してたけど、他に要因たくさんあるのでピクセルパーフェクトにはならないと思う

というか画像はtextencodeノードに入力しとかないとQwen-VLの処理入らない気がするけどなぁ

2025/10/9

https://www.reddit.com/r/comfyui/comments/1o1skhn/a_word_of_caution_against/?utm_source=share&utm_medium=mweb3x&utm_name=mweb3xcss&utm_term=1&utm_content=share_buttonだいぶ怪しい(一歩間違えると実害のありそうな)アカウントが最近アクティブらしいという注意喚起morisoba65536.icon

これは明確に悪意がありそうなので別だけど、Vibe codingしまくってたらいつか自分もやらかしそうな気がするnomadoor.icon

2025/10/7

https://huggingface.co/Kijai/WanVideo_comfy_fp8_scaled/blob/main/T2V/Wan2_2-T2V-A14B-HIGH_4_steps-250928-dyno-lightx2v_fp8_e4m3fn_scaled_KJ.safetensorshttps://www.reddit.com/r/comfyui/comments/1nu9mhh/oc_multishot_t2v_generation_using_wan22_dyno_with/謎のモデルWan2.2 dyno(kijaiリポジトリ以外では後述のGGUFしか見つからず何かわからない…カメラワークに強いらしい？)morisoba65536.icon

https://huggingface.co/QuantStack/Wan2.2_T2V_A14B_4steps_25-09-28_Dyno_High_lightx2v-GGUFGGUF版

Sora 2 APIだと透かしないのかnomadoor.icon

2025/10/6

Grokも動画生成対応したみたい、日本語は話せない(謎言語になる)が声や音は出る

I2V専用

一枚目は必ず1フレーム目でそこから連続する動画になる(Sora 2のようにプロンプトで実質的な参照画像扱いにはならない)

無茶な遷移を指定しても連続した動画になる

一応必要に応じてカット切り替えも使うが基本的はシームレスな遷移を好むようで可能な限りシームレスに動く

センシティブはかなり緩い(と言うよりこれはSora2がめっちゃ厳しいと言う方が正解かもしれない)

良くも悪くもかなり素直に「指示に忠実に従う」タイプの挙動(たまに途中からコンテキスト忘れるが)。割とアバウトな指示でもよしなにする一方で結構指示無視もしがちなSora2より制御性は高いかも知れない

2025/10/4

Sora 2でしばらく遊んで、今までのモデルに比べて明らかに強いのが「画面外のオブジェクトを画面に収まる位置にカメラワークをして何らかの操作をする(今画面に映ってない位置のドアを開けるなど)」「単一の動画内で複数のカットをCharacter一貫性を維持して使い分けれる(PVの様なカットが目まぐるしく変わるものでも対応できる)」といった所がホントに強い。morisoba65536.icon

「アニメのタイアップPV」見たいなアニメと実写がころころ入れ替わるような映像でも対応できる。

ただ、長文・詳細な指示ほど安定感が落ちるし編集能力は低め(Remix機能もあまり指示通りには動いてくれない)なので、少なくとも現時点ではあくまでもメインスコープはSNS向けショート動画っぽいなぁ…(ポテンシャルレベルではガッツリ映像作れそうだが今のところそちらに作りが向いていない)morisoba65536.icon

2025/10/3

https://huggingface.co/OPPOer/Qwen-Image-Edit-PruningQwen-ImageのpruningモデルにEDITが加わった。モデルの性質的にLoraなどを使うことも少ないしComfyUIが対応してくれると割と恩恵が大きいかも知れないmorisoba65536.icon

https://civitai.com/models/1993310/clothconsistency-wan22-i2v-consistencylora2FramePackでやっていたような一枚目を参照画像とする推論見たいな事がWan2.2でも出来たようだmorisoba65536.icon

VACEのreferenceと似た挙動だけどどういう仕組みなのかなnomadoor.icon

多分一フレーム目の画像の服を着た人物が動いてる動画を複数学習させたんじゃないかな…？morisoba65536.icon

単純に参照画像→編集後画像の2フレームで学習できたりするのかなnomadoor.icon

データセット作るのが大変じゃ…

2025/10/2

LoraExtractKJノードと言うノードをComfyUI-KJNodesで見つけた、変換速度は🦊Extract and Save Loraノードより(多分中間の差分モデルを作らず直接ノード内で差分とって変換してるからか)早くてcpuメモリの方を使ってくれるので大きいランクにもしやすそうmorisoba65536.icon

🦊ChromaやLumina-Image-2.0(実質Neta Lumina)あたりはCivitaiにスタイルLoraが増えてきてじんわり普及してる感じは受けるmorisoba65536.icon

2025/10/1

https://www.reddit.com/r/Qwen_AI/comments/1n6bcve/how_to_reduce_qwen330bs_overthinking/?utm_source=share&utm_medium=mweb3x&utm_name=mweb3xcss&utm_term=1&utm_content=share_buttonReasoning ModelのOverThinkingは最近のモデルで割と課題になっているようだ(リンクは特にその事が指摘されやすいらしいQwen3のOverThinkingに対してのスレッド)

https://x.com/toyxyz3/status/1973348063390667252https://x.com/toyxyz3/status/1973360269469651323Sora 2、ホントにレベチな奴出してきたな…morisoba65536.icon

https://openai.com/ja-JP/index/why-language-models-hallucinate/間違いにペナルティを課すやり方が動画生成モデルでも使われたりしたのかなと？思ったりnomadoor.icon

にしてもAniSoraが微笑ましく見えるくらい食わせまくってるな…